由iResearch微信公众号发起的“定量研究线上读书活动”于2016年3月18日正式启动,至今活动已全部结束。活动中,领读专家提炼章节精华,化繁为简,为读者答疑解惑;读者细细品读,乐学勤思,努力从读中获益,学有所成。
您是否曾为错过这次宝贵的学习机会而感到遗憾?没关系!小编将倾情分享本次活动的全部干货给您,包括每一阶段的专家导读及精彩问答等。欢迎您持续关注。本期为您分享的是第二阶段的阅读思考题及线上交流问答整理。
一、第二阶段阅读思考题1、 第一类错误和第二类错误之间的关系是什么?统计检验力与第二类错误之间又是什么关系?
在检验统计结果得出结论时,拒绝虚无假设或接受虚无假设时很难做到100%准确,均有可能犯两类错误。第一类错误(Type I error)是错误地拒绝了虚无假设;第二类错误(Type II error)是错误地接受了虚无假设。第一类错误用alpha水平(显著性水平)表示,以说明研究者愿意容忍犯第一类错误的概率,一般在0.05-0.0001之间;第二类错误用β表示,以说明研究者愿意容忍犯第二类错误的概率,一般在0.20以上。第一类错误与第二类错误之间是一种此消彼长的关系,尽量避免第一类错误固然重要,但是其代价却增加了犯第二类错误的几率。统计检验力就是指避免第二类错误的概率,或者说实际存在差异或联系的概率,也可以理解为“当组间或组内实际上存在着差异或变量间存着联系时探测到显著统计结果的概率。2、统计检验力分析涉及的因素和类型有哪些?不同类型的检验力分析分别发挥什么功能?统计检验力分析涉及四个因素:样本量、效应量、显著性水平和检验力水平。这四个参数之间是相互关联的,只要其中有任何三项的值是已知的,就可以求出另外一个参数的值。统计检验力分析主要有三种类型。第一种是先验性分析(a priori poweranalysis),也称事前检验力分析,即在研究实施之前的检验力分析。通过先验性分析,研究者可以获得研究所需的合理的样本数量。第二种是后验性分析(post hoc power analysis),也称事后检验力分析,它是在研究完成以后,所使用的样本量已成为既成事实的情况下所做的检验力分析。通过后验性分析,研究者可以对自己的研究进行评价。第三种是折中检验力分析(compromise power analysis),指先通过先验性分析计算出来理想样本量,但现有条件无法满足这一要求时(如无法找到足够大的样本量或者样本量过大)而采取的方法;它是在最佳最小的alpha水平与最佳最大检验力水平(1-β)之间取得平衡的方法。通过折中检验力分析,研究者可以在两类错误之间保持一种平衡。3、什么是效应量?d族和r族效应量有何区别?常用的效应量评判标准是什么?效应量是“某种现象在多大程度上存在于总体当中以及虚无假设在多大程度上是错误的”(Cohen, 1988),简言之,效应量就是变量之间的联系和差异的程度。根据统计分析方法的目的,效应量可以分为两大类:d族和r族。前者是统计方法为估计组间差异程度的效应量测量,其作用是衡量差异的大小;而后者为测量联系强度时的效应量测量,其作用是衡量变量间联系的密切程度或者两个或多个变量之间的共变程度。一般说来,在同等条件下,效应量越大说明实验变量的影响越大,研究发现就越重要。最常用的效应量评判标准就是由Cohen(1988)提出来的一套参照体系,具体参看书中第206页的相关表格。
二、第二阶段线上交流问答
1. Q: 我对于第一类错误和第二类错误不是很理解,什么是第一类错误和第二类错误呢?A:其实我们会经常遇到这样的问题,就是如何证明一个人有罪?在现实世界里,证明一个人无罪要比证明一个人有罪容易的多。只要能有该人不在场的证据,就这一个证据,就可说明他无罪。在我们的定量研究中,我们验证的都是虚无假设,即变量A与变量B之间没有关系。结论有四种情况(大家可以查阅本书第164页的这个图表):我们可以看到这四种情况是:正确地接受虚无假设;正确地拒绝虚无假设;错误地接受虚无假设;错误地拒绝虚无假设。 第一类错误(Type I error)就是错误地拒绝了虚无假设,即该人没有犯罪,却被判定有罪,就是变量A与变量B有关系;第二类错误Type II error就是错误地接受了虚无假设,即该人犯罪了,却被判定无罪,得出的结论就是变量A与变量B没有关系。在检验统计结果得出结论时,拒绝虚无假设或接受虚无假设时很难做到100%准确,我们都有可能犯这两类错误。 第一类错误我们用alpha水平(显著性水平)表示,用来说明研究者愿意容忍犯第一类错误的概率,一般在0.05-0.0001之间,这个是在研究前预先设定的。如果设为0.05,就说明我们愿意接受研究结果5%的出错率,也就是研究结果在95%的情况下是正确的;第二类错误用β表示,用来说明研究者愿意容忍犯第二类错误的概率,一般在0.20。也就是我们的研究能够达到的统计检验力为0.8,即我们有80%的把握可以探测到显著统计结果。 可能有读者问,既然有两类错误,为什么很多论文只汇报显著性水平(即研究者可以容忍犯第一类错误的概率),而忽略了第二类错误概率的汇报呢?因为第一类错误比第二类错误问题更严重。我举个例子来说明一下。 412反革命政变时期,蒋介石疯狂杀害共产党人,当时的抓捕口号是:宁可错杀一千,不可放过一个。这里“错杀一千”,就是指第一类错误,变量a与变量b之间没关系却被认为有关系,这种做法事实证明是非常有害的,它冤枉了很多人。“放过一个”指第二类错误,即两个变量间有关系却没被发现。我们知道一次研究没发现他们之间的关系,但很有可能第二次,第三次研究就会发现两者之间的关系。所以说第一类错误比第二类错误更严重,因为很多时候无法挽回。2、Q:先验性检验力分析和后验性检验力分析是不是比折中检验力分析更常用呢?如果同时使用了先验性检验力分析和后验性检验力分析,那是否可以不需要使用折中检验力分析了呢?A:是的。先验性检验力分析和后验性检验力分析是比折中检验力分析更常用。如果一项研究在开始实施前使用了先验性检验力分析,确定了样本量,而且也按照该样本量进行实验设计,在研究结束后又做了后验性检验力分析,那就不需要折中检验力分析。因为折中检验力分析是在通过先验性分析计算出了理想的样本量,但现实条件又无法满足这一样本量而采取的方法。3、Q:如果效应量很小,而研究结果又达到了显著性水平,那这个可能是微不足道的结果是否是有效的呢?A:我们说统计结果达到了研究者事先定好的显著性水平,只能说明变量之间存在联系或差异,但这个联系和差异有多大,我们是不清楚的,这就需要计算效应量。如果效应量很小,我们可以得出结论,就是变量之间的联系或差异很微弱,可以忽略不计。4、Q:根据统计分析方法的目的将效应量分为d族效应量和r族效应量,我不太明白这两种效应量的区别,它们的具体用处是什么呢?A:效应量就是变量之间实际关系的关联强度或差异幅度。关于效应量的分类,学界意见不太统一,目前存在几十种。Kirk(2003)将效应量分为d族和r族。d族效应量指的是差异幅度;r族效应量指的是关联强度。这只是一种分法而已。另一位研究者LarsonHall(2010)提出“两者均可”,即d族和r族效应量均可表示关联强度或差异幅度。 当我们发现检验结果的显著性水平p值小于预设的显著性水平(如0.05),那就说明变量之间存在关联或差异。但这个关联强度和差异幅度我们不清楚,只有计算效应量才能清楚。也就是说,效应量的具体作用就是告诉我们变量间的关联的强度和差异的幅度。我们来看一个研究案例。大家看下这个表,它汇报的是七个城市外语阅读能力与全国均值的比较结果。最右边一栏r值就是效应量的数值。大家可以最大的r值是0.589,说明天津市与全国评价水平的差异最大。如果我们只看p值,有好几个城市的p值都是0.000,看不出谁的差异更大。所以现在外语界越来越重视汇报效应量了。5、Q:R程序和G*Power的功能实在是太强大了,也正因为这样,很多子选项不知道什么情况下使用,请问老师我还需要读哪些东西才能让我对这两个软件的使用融会贯通呢?A:R程序是一套完整的数据处理、计算和制图软件系统,与G*Power相比更强大。如果想更多的了解该软件,可参考由Robert A. Muenchen写的这本书:R for SAS and SPSS Users (2nd ed.)
但在外语教学研究领域,计算统计检验力我们常用G*Power软件,免费的,而且很方便,也很智能,操作比较简单,按照要求输入显著性水平,效应量等相关数值,即可获取检验力、样本量等信息。暂时没有专门的书籍介绍G*Power软件,只有一些操作说明。6、Q: 如果所从事的研究检验力不高,说明研究不成功,出现这样的情况是需要重新设计或放弃该实验吗?是否有其他的办法可以改进呢?A:请看本书第173页的图。右下部分。这位读者说的“检验力不高”应该指的是“后验性检验力”,根据这个图,如果检验力低,就需要加大被试,即增加样本量,无需重新设计实验。7、Q:请问,那些样本量达到了好几千或几万的问卷调查或数据库是否会产生检验力过高而得到没有实际意义但又达到了显著性水平的统计结果?A:如果样本量太大,统计检验力也会很高,但检验力太高也不是好事,因为很容易就发现变量之间的关系达到显著性水平,很多时候研究结果就会违背常理。我们应该要在第一类错误和第二类错误之间取得一个平衡。8、Q:书上P. 191“……发现绘本效应量的研究不足半数,汇报效应量置信区间的研究更是为零。”请问“效应量置信区间”如何查看?谢谢!A:请查看本书第160页,这里有详细的介绍如何使用SPSS软件计算置信区间。关于如何解读置信区间的数值,上限和下限的两个数值中间是否跨0,如果跨0,说明要接受虚无假设,变量间没有关系;不跨0,就可以拒绝虚无假设,即变量间存在差异。请看上图:
第一组和第二组的置信区间,两个数值之间含有0,所以我们就要接受虚无假设,即两组间不存在差异。9、Q:如何确定研究设计该用哪种分析,如相关分析、回归分析、方差分析等?在数据分析中我们该使用哪种检验方法,这个是根据分析目的来说的,也就是要根据你的研究问题来确定。在第三阶段的读书活动中我会予以详细解答。
相关链接:
《外语教学定量研究方法及数据分析》读书活动第一阶段干货分享
第一阶段线上交流问答整理